常规收集医疗数据开展观察性研究，研究方法怎么写？

医咖会 2021-01-15

内容来自《药物流行病学杂志》2019年第28卷第3期，原题目为《使用常规收集医疗卫生数据开展观察性研究的报告规范（药物流行病学版）》。文章译自：BMJ, 2018, 363: k3532。译者申明：RECORD-PE规范中文版翻译得到RECORD指导委员会授权、认可发表。译者为聂晓璐，武泽昊，赵厚宇，詹思延，孙凤，彭晓霞。

将这篇文章分享给医咖会的伙伴们，希望大家能从中有所收获。

（感谢彭晓霞教授的授权）

之前的文章简要介绍了RECORD-PE 规范，详见：一表总结：常规收集医疗数据开展观察性研究的报告规范。今天这篇文章，我们将对报告规范中研究设计相关条目进行详细说明，并辅以实例帮助大家理解。

方法（研究设计）

1. RECORD-PE 规范条目4.a

如果使用多种研究设计，应报告包含特定研究设计的细节（以及特征）。

1.1 解释

STROBE规范推荐研究者在论文靠前的部分提供研究设计的关键要素。因为常规收集医疗卫生数据通常在实施研究之前收集，研究者理论上可以根据研究问题使用一系列研究设计[如自身对照病例系列研究（self controlled case series stuies)、队列研究或病例对照研究]或设计特征[如新用药者设计（new user dsigns)]。论文中使用的一系列研究设计没有直接包含在RECORD 规范中。

药物流行病学研究从两个方面扩展STROBE规范。首先，现有STROBE规范未涵盖该领域的研究者经常使用的特定研究设计特征[如阳性对照新用药者设计（the active comparator new user design)]；其次，一篇论文中使用多种设计或设计特征是很常见的。读者应该能够获悉使用了哪些研究设计或设计特征。这些信息将有助于感兴趣的读者重复使用相关的研究方法。

研究作者应该对这类研究设计或设计特征描述尽可能多的细节以使读者了解采用的设计。如果使用了多种研究设计或设计特征，作者应说明哪种设计用于主要分析。作者也应该对论文与研究方案的任何偏离进行论述和阐释，或明确说明最终分析完全遵循了初始的研究方案。

1.2 实例

1.2.1 具体设计特征（阳性对照新用药者设计）

采用新用药者队列设计比较初始使用标准剂量的达比加群或利伐沙班治疗非瓣膜性房颤（atrial fibrillation, AF) 的疗效。采用国际疾病分类系统第9 版(ICD-9)编码，识别所有门诊与住院患者中被确诊为房颤或房扑的患者，并要求他们在2011年11月4日（利伐沙班被美国批准用于AF) ~2014年6月30日首次处方两种药物中任何一种。

排除以下患者：进人医疗保险（Medicare) A、B和D部分（A 部分主要为住院医疗相关信息，B部分主要为医疗需要和预防相关信息，D部分包括处方药物和报销相关信息）的时间少于6个月；年龄小于65岁；曾接受华法林或任何新型口服抗凝药治疗；居住在专业护理机构或养老院；或者在他们满足队列合格处方日期（标签日期）前接受临终关怀护理者……因为研究目的是直接比较达比加群和利伐沙班，没有包括华法林治疗队列。

1.2.2 具体设计特征（中断时间序列分析）

为分析估计抗生素处方随时间发生的变化趋势，对中断时间序列数据采用分段线性回归分析，这是一种常用的类试验方法，用于评估在明确定义事件后结局指标发生的趋势变化。对于每个出生周的队列，分别估计了开具至少1个抗生素处方的1年风险，并进行阿莫西林和青霉素V的亚组分析。

1.2.3 具体设计特征（药物使用/风险最小化干预措施的效果评价）

经过欧盟的集中授权，2011 年8月1日，两种剂量（150或110mg bid）的达比加群被批准上市，用于预防患有非瓣膜心房颤动且有一个或多个卒中风险因素患者的卒中发生……

随着早期上市后报告了出血事件，监管机构提出警示性建议。欧洲药品管理局（EMA）在2011年11月18日的安全性更新中，建议应对老年患者开低剂量处方。此外，此更新声明强调监测肾功能的重要性，特别是75岁以上的患者。对此安全更新的影响以及先前描述的（监管）框架的特征，将在下面所述的案例研究中进行介绍。

2. RECORD-PE 规范条目4.b

推荐使用图表来说明研究设计的主要方面，包括暴露、洗脱、滞后和观察期，以及相关的协变量定义。

2.1 解释

建议使用图表来说明总体研究设计或患者纳入的时间轴[包括关键研究方面，如处方开始和结束、风险期（risk periods)、暴露期（exposed periods) 、未暴露期（unexposed periods) 、宽限期（grace periods)、诱导期（induction perods）和洗脱期（washout periods)]。暴露期在药物流行病学中较为复杂，读者通常难以理解；这个条目不是RECORD规范具体推荐的。

如果研究中包含超过一种类型的设计或分析，建议对每个设计或分析均用图表给予说明。可以将潜在的复杂分析设计，包括患者间或患者内有多个风险期的研究，通过可视化图表进行展示，从而避免误解描述设计和实施的文字段落。

2.2 实例

2.2.1 自身对照病例系列研究中的暴露评估期的说明

Douglas等有关奥利司他的使用和急性肝损伤风险的一篇论文中包含描述研究患者的典型时间轴。该研究采用自身对照病例系列设计，该图提供了展示同一患者未暴露和暴露的时期分布（基线、治疗前期和奥利司他暴露后多个时间段），并强调肝损伤的风险期。

2.2.2 队列研究中暴露评估期的说明

Kim 等针对tolciluzimab（基因重组药物）的使用和心血管事件风险开展研究，使用阳性对照新用药者方法比较两种治疗类风湿性关节炎的生物药品。文献中的图2展示了两个关键的人选标准（使用≥1种生物药，并且类风湿性关节炎诊断之前没有暴露于特定药物的患者）和两个暴露组的随访期，包括洗脱时间窗。同时对暴露时期也进行了清晰地标记，并对删失事件进行了描述。

方法（场景）

1. RECORD-PE 规范条目

没有对现有STROBE条目制定REC0RD-PE扩展条目。

2. 解释

正如RECORD规范解释性文件中所述，读者需要了解数据收集原因和内容，以便能够评估信息偏倚的潜在可能性，例如，数据收集是用于临床照护还是计费结算。读者也应该能够确定是否数据库人群可以代表研究源人群，以评估结果的外推性。

方法（研究对象）

1. RECORD-PE 规范条目6.1.a

描述研究入选标准和用于识别研究总体的入选标准顺序。明确是否只纳入具有特定指征的使用者、是否允许患者一次或多次进入研究人群。

2. 解释

当患者是按照他们暴露于一种（或多种）药物进行入组时，可能有多种方法来制定纳入标准；因此RECORD规范需要进行扩展。在解释性文字中提到的人群被分为3个层次，分别是源人群、数据库人群和研究人群。

在斯堪的纳维亚地区，很多数据库中的源人群和数据库人群可能是由相同的个体所组成，因为数据库包括了该国的全体人口。

研究人群来源于数据库人群，并且满足纳人标准的人群（以初级保健数据库为例，他们均享受初级保健服务，并都包含在数据库中）。提供详尽的纳人和排除标准用以确定研究人群十分重要，纳人排除标准需要包括明确定义暴露状态和其他合适的标准。作者还应该明确排除标准是用于研究的入组日期的之前还是之后。报告这些细节会极大地增强研究的可重复性，同时增强评估研究结果的相关性和真实性的能力。

应详细描述匹配方式。对于对照的抽样，应该报告抽样实施的时间轴是按照风险集进行还是发病密度进行。需要解释没有合适对照的情况下如何处理（比如，放宽匹配标准或排除标准）。进一步叙述是否使用频数匹配或是个体匹配，以及匹配过程中是否可放回以及相应的算法（如贪婪最邻近匹配）。

3. 人群选择的实例

由van Staa等完成的研究中，纳人口服糖皮质激素的使用者，并将其定义为：永久注册的18岁及以上患者，从进入英国全科医疗研究数据库（General Practice Research Database, GPRD ）之日开始到研究结束（1997年12月），接受过一次或多次口服糖皮质激素处方的人群。

Shin等报告，病例的指示日期定为随访日期，即为人院开始的日期。每一个病例，会采用风险集抽样随机抽取10个对照，按照性别、年龄（± 1 岁）、进入队列的日期（±90d）和随访持续时间进行匹配；对其中的一个病例，为匹配到合适的对照，年龄的匹配条件放宽至上下2岁。

方法（变量）

1. RECORD-PE 规范条目7.1.a

描述如何构建药物暴露定义。

1.1 解释

作者需要详尽叙述如何获得药物暴露编码列表。该信息包括检索的词典（如解剖治疗化学(ATC)分类或数据库；或国家特有的编码，如美国国家药物编码）以及检索数据库和词典的方式（如人工或是自动），也可包括药物成分的名称、检索操作的路径以及采用ATC分类的级别。

这种程度的细节可使读者解释暴露定义的完整性和准确性，并保证结果的可重复性，这些信息超出RECORD 规范的具体内容。

1.2 实例

药物暴露定义的确定：评估的主要暴露为，妊娠早期暴露于任何抗抑郁药物（ATC编码起始为N06A）和选择性5-羟色胺再摄取抑制药（SSRIs；ATC编码起始为N06AB）。

暴露依据两种来源的信息定义：“母亲的自我报告（适用于子代出生于1996 ~ 2012年的女性）以及发药记录（适用于子代出生于2006 ~ 2012年的父母）。母亲妊娠早期的用药情况来自于医学出生登记（Medical Birth Register），基于发药记录的用药信息则来自于处方药物登记（Prescribed Drug Register），处方药物登记涵盖自2005年7月以来瑞典所有的药物分发及随附的处方。

2. RECORD-PE 规范条目7.1.b

明确获得个体药物暴露信息的数据来源。

2.1 解释

作者应该写明数据的来源，以及电子记录代表的是来自于电子医疗记录中发出的处方还是收回的处方信息。读者也需要了解数据库是否包含有关报销的处方、线下药品发放、医疗服务者直接提供的药品（样品）或非处方药的使用等相关信息，同时还需要了解这些信息的完整度。

2.2 实例

写明药物暴露定义的信息来源：在丹麦，研究人群包含了在Aarhus大学处方数据库（Aarhus university prescription database, AUPD )中记录的口服降糖药使用者。该数据库覆盖了丹麦的北部和中部地区人口，2010年总覆盖的年中人口数为180万，约占丹麦总人口的1/3。

AUPD保存着该地区自1998年以来门诊药房收回的所有报销处方。在英国，使用口服降糖药的病例可通过英国全科医疗研究数据库（general practice research database, GPRD）来获得，目前也被称作临床实践研究数据链（clinical practice research datalink, CPRD）。

3. RECORD-PE 规范条目7.1.c

描述定义个体药物暴露的时间窗。应提供选择特定时间窗的基本原理。明确潜在左截断或左删失的程度。

3.1 解释

暴露的时间可以定义为，如第一次开具处方后的天数（请参考RECORD-PE规范条目4 中的推荐图表）。用药天数可以通过处方开具的药片数量、再次填写记录的天数，或者按规定或假定适应证的每日用药量来得到。

通常使用常规收集医疗卫生数据的研究者可能无法获得患者具体用药信息。读者需要能够了解研究者对服药时间的推断是基于日常处方还是直接通过用药信息来确定。对依据药物暴露而产生的特定变量也应该提供详细描述。

这些变量可能包括收集到的剂量相关信息或在规定时间内回收处方的总量。例如包括持续时间、累积剂量以及新近用药[是指目前（current）、新（new）、最近（recent）、之前（former）的药物使用]。

作者应该明确是否仅包括新用药者，还是同时包括新用药者（new users）和现用药者（prevalent users）。作者应该在将患者划分为新使用者之前，采用定义的洗脱期，来清晰界定他们纳入的人群为新用药者还是从未接受治疗的患者（treatment naive new users) ，如相对于从未接受治疗的患者，新用药者可能是再次用药的患者。

作者应详细描述处方的每日剂量假设（如果没有记录的话）、处方覆盖的持续时间、以及用以定义以下特征的宽限期长度，如换药、停药、持续用药和沾染等。

考虑到再次填写行为的变化，重复开具处方的间隔时间足够短时可以认为是连续用药。如果距离上一次处方的时间已经超过了既定的截止时间（基于估计的处方天数），而没有新的再次处方，通常认为未连续服药。这个问题对于电子医疗记录这类系统来说可能很重要，因为存在多个编码的时间。读者可能想要咨询最新的关于如何计算这种暴露持续时间以及如何报告相关方法学的推荐意见。

暴露时间的定义也可以被用来评估不连续用药的结局。因为通过处方或者回收记录测量真实药物摄入是有局限的，所以作者需详细报告用以定义暴露时间的算法和假设。研究者可以使用不同暴露持续时间的定义来进行敏感性分析，这部分结果可以在正文或附录中呈现。

在常规收集医疗卫生数据中，左侧或右侧截断和删失的问题可能也会影响药物暴露的定义和结局数据，从而导致重要的错分和偏倚——因此，这些问题应该在使用常规收集医疗卫生数据研究中予以报告。

例如，右截断可能存在于电子医疗记录中，因为当病人不适合保险覆盖的范围时，他们会在不同医疗机构之间或管理系统内发生转移；关于这些方面的处理决定，应该向读者进行阐明。

3.2 定义暴露时间窗的实例

Patorno等报告，暴露被定义为在妊娠早期（末次月经后的第一个90d）至少有一次锂剂的处方记录。对照组中包括在怀孕开始前3个月或妊娠早期没有发放锂剂或拉莫三嗪的女性。怀孕前3个月没有发放记录的标准的加入，是为了避免错误地将从怀孕开始前已有处方记录的女性划定为非暴露组。

Larivée等报告，大多数医疗卫生数据库存在左截断的情况，导致病史以及先前的用药记录不完整。这一问题在医保数据库中尤其严重，因为在非医保覆盖时段内没有可使用的信息。如美国医疗保险（US Medicare）数据库仅包含65岁及以上的患者。这种截断的情况在临床实践研究数据链（CPRD) 中，可以对出现在不同医疗机构的患者信息进行交换而得以部分解决，但这样的交换只能在两个数据库使用同样的软件时才可能实现，在不同数据库间将患者记录链接起来是不可能的。

4. RECORD-PE 规范条目7.1.d

明确事件如何归因于当前（current）、先前（prior）、既往（ever）或者累积（cumulative）的药物暴露。

4.1 解释

在药物流行病学研究中，通常需要比较两种药物或两个及多个时段的不良事件发生率。不良事件发生率的定义为，发生不良事件的人数除以给定暴露风险下的时间总数。

思考并清晰报告如何定义风险暴露时间是至关重要的。风险暴露时间的定义依赖于药物的药动学特性、研究终点的性质、患者相关的因素以及合理的诱导期（药物与终点之间）的假设。

当暴露变量是二分类变量时，结果可归因于药物在“当前暴露（currently exposed）”到“既往暴露（ever exposed ）”中任一时间的暴露。处理这一问题的另一个风险归因模型是“药物加滞后时间窗”。在这个模型中，某事件的发生可以被归因于停药后一段时间内的治疗，因此可以给予药物继续在体内发挥残留效应或者结局延迟出现的时间。

不同的风险归因模型可导致相同的数据得出不同的结论。这个问题促使风湿病学生物医学注册登记规范建议的诞生，研究小组应该在回答相同的研究问题中采用相似的风险归因模型，以提高研究间的可比性。在确定风险归因模型时，研究人员还需要考虑特发性偏倚的可能性，例如，使用一种药物以治疗未诊断结局的早期症状。如果可能存在特发性偏倚，作者需要在正文中描述。

4.2 实例

描述事件如何归因于药物暴露：在统计分析将结核感染病例归因于抗肿瘤坏死因子疗法时使用两种不同的模型：“用药中”（如果患者在诊断时积极接受相关药物治疗）以及“最近用药”。

5. RECORD-PE 规范条目7.1.e

当检查药物剂量和风险归因时，应该描述如何考虑当前治疗、历史治疗或治疗时间。

5.1 解释

不良事件的风险可以受到当前或历史治疗的影响。因此，研究人员需要在分析时考虑当前和历史药物暴露。在模型中仅纳入当前的用药，不论是二分类变量还是当前剂量，都基于这样的假设，即既往的药物使用对研究的结局没有影响。近期使用，例如过去30d内的暴露，可将历史暴露纳人考虑，但是其假设是29d前的暴露很重要，而31d 前的暴露却不重要。

合理时间窗的选择会根据研究问题以及暴露可能会导致相关结局的生物学机制的不同而不同。例如，历史药物暴露不太可能引起现在的超敏反应，而几个月或者几年前的药物暴露也可能增加当前患恶性肿瘤的风险。复杂模型，例如加权累计暴露模型，可以使用历史暴露灵活建模直至评估风险的时间点。

虽然没有模型是完美的，研究人员应该考虑和报告如何将历史暴露纳人考虑。对在研究期间暴露于多种研究药物的患者的处理方式也应该写明，而且作者会考虑报告他们处理随时间变化导致混杂的方法。作者也可能需要直接指出消除易感人群或者健康志愿者偏倚的问题。

5.2 描述如何考虑当前和历史暴露的实例

Movahedi等报告，因对于糖皮质激素（GC）暴露与糖尿病（DM）之间的关联机制不确定，研究拟合了7个传统模型，每一个都运用了不同的随时间变化的糖皮质激素暴露表示方式……模型5和6采用截止到给定时间点前的随时间变化连续测量的累积剂量，可分别为从去年开始或者从研究入组开始计算时间。模型7为自从队列人组开始的分类累积剂量，并按照截断值（基于四分位数）0, 960, 3055, 7300 mg泼尼松（PED量）进行分类。

Larivée等报告，研究目的是为阐述在卫生保健数据库中，分析首次使用和重新开始使用含屈螺酮合并口服避孕药（COCs）患者的静脉栓塞血栓（VTE）发生风险时存在的挑战……首次用药的队列包括了 2002年5月~2015年3月所有16~45岁首次开具含屈螺酮或左炔诺孕酮的COCs处方的女性。重新开始用药队列包含未用COCs6个月以上，又重新开始使用的女性。

6. RECORD-PE 规范条目7.1.f

概述和说明用到的对照组。

6.1 解释

指示混杂在流行病学被认为是“难以处理”的偏倚，因为治疗方法的选择首先取决于特定结局的风险；因此这个条目与药物流行病学特别相关。这一偏倚可能会导致很强的混杂，也许比由于潜在共同原因而产生关联的混杂更大。而且，指示偏倚带来的混杂的程度很难评估，因为基于期望的预后，而这一期望是基于专业卫生人员在治疗患者时形成的个人观点。

选择合适的对照组是减少由指示症状或者因严重程度带来的混杂的关键措施。如果没有对照组，作者应该写明原因。清楚描述对照组治疗的使用和合理性，对评估潜在由指示症状或者因严重程度带来的混杂是十分必要的。对照组可能包括对同一指示症状的替代药物暴露、同一种药物暴露的不同时间窗、历史使用的比较治疗药物、未暴露时期或者未暴露的个体。

在缺乏随机化的情况下，混杂因素（由指示症状引起）需要特别注意。因此，研究人员可以使用多个对照组，并且根据关联估计是否变化来更好地控制混杂因素（如基于阳性对照组的比值比是否会随着对混杂因素调整而变化），而且这些分析应该在发表的论文中进行报告。

在单臂研究中，或者没有适当的同期阳性对照组时，可以使用常规收集的医疗卫生数据获得历史阳性对照组的数据。这些方法的细节都应清楚地予以报告。

6.2 对照药物的考虑实例

在评估抗抑郁药物使用与妊娠/子代结局关联的研究中，Sujan等处理指示混杂时,采用了与妊娠期无关的暴露。为探讨宫内暴露是否与妊娠前后产妇抑郁治疗结局存在关联，将早期妊娠抗抑郁药的使用与怀孕之前的发放量之间进行了比较，而且对已测量的妊娠相关协变量、父母相关协变量进行了调整。

另外，拟合包含怀孕前发药和早期妊娠发药的各自的参数的模型，与有1个参数代表两次发药的模型进行比较。父亲在妊娠早期抗抑郁药的发放，可以在进一步研究由家庭产生的混杂作用时，作为阴性对照组。

Filion等报告，主要对照组是合用口服降糖药接受治疗的患者，根据规范推荐，将基于肠促胰岛素的药物用作二线或三线治疗，这一对照组的应用，既可以减少指示征引起的潜在混杂，同时提供了与临床治疗相关的对照组。

7. RECORD-PE 规范条目7.1.g

列出处理研究期间有多次相关药物暴露个体的方法学步骤。

7.1 解释

在比较两种或两种以上药物暴露引起的不良反应发生率的队列研究中，应该对如何处理暴露起始时使用多种药物个体方法（或者开始用药物1，紧接着用药物2的情况）进行详细描述，使读者能够解释研究发现。因为风险归因的困难，某些研究根据处方或发药记录排除了在队列入组时使用多种药物的患者。

如果在随访期间经历过多种治疗，最常用的办法是记录为删失。或者，可以采用时间依赖暴露处理多种治疗暴露（如从旧的治疗转换到新的治疗时），基于发药记录，分别记录每个患者的暴露人时，并采用恰当的方法处理时间依赖混杂（如边缘结构模型，估计）。应该透明地报告作者所采用的方法，包括如何定义风险归因模型和滞后期。

7.2 处理多种药物暴露的实例

Xue等在地诺单抗治疗绝经后骨质疏松女性的国际药物警戒研究中，清楚报告了时间依赖暴露。因为很大比例的患者在使用新的普罗利亚药物之前，已经使用过双磷酸盐治疗，因此，如果适用的话，将基于非常少的患者采用“新用药者设计”来减少于先前治疗相关的偏倚。而且，骨质疏松症患者也会随时间改变治疗，所以选择开放队列设计结合“实际接受治疗分析（as treated ）” 的方法来处理时间依赖的药物暴露。

Wong等报告，基于年龄在5岁以内、性别和用药年份，给每个克拉霉素的使用者匹配一名或两名阿莫西林使用者。两组均排除在进入观察期内首次处方抗生素日期前4年内使用过克拉霉素的患者。然而，随后时间的阿莫西林使用者可以被分到使用克拉霉素组。观察期开始于首次抗生素处方的日期（标签日期），结束于最早出现结局、死亡、后来交换使用阿莫西林或克拉霉素的日期，或者研究结束的日期（2012年12月31日）。

统计方法、结果、讨论部分的报告规范，我们将在后续的文章中，一一进行介绍，敬请期待！

更多阅读

1. 一表总结：医学期刊的统计报告要求

2. 医学论文中如何描述统计方法和统计结果

3. 临床预测模型：基本概念、应用场景及研究思路

点击左下角“阅读原文”，看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址：http://www.mediecogroup.com/，查看全部统计教程。有问题快加小咖微信（xys2019ykh），拉你进入统计讨论群！

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！